Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/970 -
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
Telegram is riding high, adding tens of million of users this year. Now the bill is coming due.Telegram is one of the few significant social-media challengers to Facebook Inc., FB -1.90% on a trajectory toward one billion users active each month by the end of 2022, up from roughly 550 million today.
Telegram announces Anonymous Admins
The cloud-based messaging platform is also adding Anonymous Group Admins feature. As per Telegram, this feature is being introduced for safer protests. As per the Telegram blog post, users can “Toggle Remain Anonymous in Admin rights to enable Batman mode. The anonymized admin will be hidden in the list of group members, and their messages in the chat will be signed with the group name, similar to channel posts.”
Библиотека собеса по Data Science | вопросы с собеседований from it